トレーニングデータとして、CC-100(https://t.co/uMFIL20AXP)のオープンソースデータを使用しています。 日本語はダウンロードするだけで15GBです。 そのあと展開して加工する。



from Twitter https://twitter.com/o_ob

日本語の文章なのに条件付確率がつるっと書いてあって素敵…と思いました AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化 | TechCrunch Japan https://j.mp/3s4iHDR @jptechcrunchより



from Twitter https://twitter.com/o_ob

NVIDIA Tesla V100 Volta GPU アクセラレーター 32GB グラフィックスカード 税込97万円ぐらいです。 https://j.mp/2Ozh8QD GPU x 4 😇 > CUDA_VISIBLE_DEVICES=0,1,2,3 python -m task.pretrain.train –n_gpus 4 –save_model True –enable_log True



from Twitter https://twitter.com/o_ob

りんなのモデル、ソース公開されているし学習手順も書かれているけど再現はふつうにたいへんだった > Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしました https://j.mp/2RlUQ5V



from Twitter https://twitter.com/o_ob

JavaScript エンジンで予期しないエラーが発生しました。エラーコード: INTERNAL。 ここ数日GASで発生するようになったんだけど…



from Twitter https://twitter.com/o_ob